基于Web日志挖掘和关联规则的个性化推荐系统模型研究

基于Web日志挖掘和关联规则的个性化推荐系统模型研究

作者:师大云端图书馆 时间:2015-10-02 分类:参考文献 喜欢:2928
师大云端图书馆

【摘要】随着科学技术的飞速发展,互联网提供的丰富信息在助推社会产业部门升级的同时也带来了一些问题,如信息的急速增长易产生大爆炸效应,造成“信息过载”。同时,为了对互联网用户提供更加全面的信息资源,网站经营者和管理者不断向Web站点中添加信息,这就使得Web站点的拓扑结构日益复杂化。由于向Web站点新添加的资源可能不符合用户的真实需求,易造成用户浏览Web站点时出现“资源迷向”。因此,如何从海量的数据中发现人们感兴趣的信息是我们面临的问题。所以,出现了数据挖掘在Web站点分析中的应用,即Web挖掘。Web挖掘是一项综合技术,它涉及Web技术、数据挖掘、信息学、计算机语言学等多个领域。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Web使用挖掘,智能查询,建立Metaweb数据仓库等。Web使用挖掘就是从服务器日志中发现用户行为特征和导航模式。本文系统阐述了数据挖掘、Web挖掘以及Web使用挖掘的整个流程,重点研究了Web日志预处理过程、关联规则挖掘模型和滑动窗口推荐模型三方面内容。首先,Web日志预处理过程包括:数据清理、用户识别、会话识别、路径补充和事务识别。经过预处理阶段,可以从用户访问信息中去除大量无关的数据,同时也对Internet上的用户访问信息进行结构化处理,并将其以事务或会话的形式保存在关系数据库中。然后,对预处理后的数据,本文采用加权关联规则对其进行挖掘。经典的关联规则挖掘算法Apriori不仅能够发现Web访问页面之间的相互联系,而且对发现用户偏好导航模式有重要作用。但是,将Apriori算法应用于Web日志挖掘也有其主观局限性。Apriori算法隐含的假设是所有页面的重要性是相同的,它并没有考虑到页面之间的差异性,因此,使用该规则挖掘出来的数据中可能会遗漏掉某些用户感兴趣的页面。针对Apriori算法在Web日志挖掘应用中存在的不足,本文引入“页面权值”这一概念,它反映了用户对页面的真实喜好。根据页面权值的定义,我们综合考虑用户对页面的浏览时间和访问频次两个因素,并在此基础上提出了W-Apriori算法。该算法采用扩展布尔矩阵的表示方式来描述事务数据库,这样有助于事务数据库的压缩。同时,权值的引入也有利于区分页面之间的差异,有效地解决了挖掘过程中遗漏某些重要页面的问题。最后,本文将挖掘得到的规则形成规则库,结合使用滑动窗口技术,设计实践基于关联规则挖掘的Web日志推荐模型。该模型不仅能够有效解决“信息过载”和“资源迷向”等问题。而且可以将用户感兴趣的页面推荐给相关Web用户,实现推荐的个性化。
【作者】李中良;
【导师】杨国才;
【作者基本信息】西南大学,计算机应用技术,2014,硕士
【关键词】数据挖掘;日志挖掘;关联规则;频繁访问模式;推荐系统;

【参考文献】
[1]严泰来,朱德海,张晓东.应用“3S”技术,在农业科学研究中贯彻科学发展观[J].中国农业大学学报,2005,06:16-20.
[2]王姗姗.美国金融机构反洗钱监管分析[D].吉林大学,世界经济,2013,硕士.
[3]朱铭.双对置发动机缸内工作过程仿真研究[D].中北大学,动力工程,2014,硕士.
[4]王冬雪.黄葵胶囊治疗难治性肾病综合征的系统评价[D].吉林大学,制药工程,2014,硕士.
[5]孙明轩.纳米TiO_2光阳极材料的改性及其光电化学和光催化性能研究[D].复旦大学,2013.
[6]刘志红.基于生态健康风险评价的土地生态适宜性评价研究[D].大连理工大学,环境科学,2013,硕士.
[7]段小龙.支持动态路由的网络模拟系统设计与实现[D].哈尔滨工业大学,计算机技术,2014,硕士.
[8]王秀青.气流离心纺丝气体流场初探[D].苏州大学,纺织材料与纺织品设计,2014,硕士.
[9]赵燕.日本沼虾微卫星标记开发、遗传结构分析及性别相关遗传标记筛选研究[D].山东农业大学,动物遗传育种与繁殖,2014,博士.
[10]杨伟.严寒地区绿色村镇住宅建设评价指标构建的博弈分析[D].哈尔滨工业大学,管理科学与工程,2014,硕士.
[11]李宏,杜剑峰,陈松乔.分布式数据库约束性关联规则挖掘[J].中南大学学报(自然科学版),2004,06:998-1003.
[12].优势互补精准发力打造科技援疆“升级版”[J].今日科技,2014,07:16-18.
[13]章巧利.甲氧虫酰肼与氟啶脲对甜菜夜蛾的亚致死效应[D].上海海洋大学,作物遗传育种,2013,硕士.
[14]郭成亮.负债期限结构与企业投资规模关系的实证研究[D].西南大学,企业管理,2014,硕士.
[15]吴楠.有向图子图同构计算算法研究[D].辽宁大学,计算机应用技术,2012,硕士.
[16]张露.基于心理资本的我国知识型员工创造力开发研究[D].湖南师范大学,企业管理,2013,硕士.
[17]郭威.黄鳝性别差异表达基因的筛选及血清激素水平的变化[D].华中农业大学,水生生物学,2014,硕士.
[18]王海茹.欧盟国家与美国贸易争端及其解决机制[D].河北师范大学,国际政治,2004,硕士.
[19]张莎.微生物絮凝剂产生菌的筛选和絮凝剂的分离纯化及特性研究[D].燕山大学,环境工程,2014,硕士.
[20]秦海林.带有流失及不耐烦顾客排队系统的模拟仿真[D].长安大学,应用数学,2013,硕士.
[21]吴波.纳米材料电致发光瓦斯气体传感器研究[D].西安科技大学,矿业工程,2013,硕士.
[22]康超,史耀耀,何晓东,张军,张晓扬.圆筒纤维缠绕变张力神经网络动态控制[J].航空学报.
[23]鹿文浩,李亚利,王生进,丁晓青.基于部件的三维目标检测算法新进展[J].自动化学报,2012,04:497-506.
[24]张振鹏.大棚远程监控系统的设计与实现[D].浙江海洋学院,农业推广(专业学位),2013,硕士.
[25]何朝东.石墨烯(氧化石墨)/银复合材料的制备和性能研究[D].北京化工大学,材料工程(专业学位),2013,硕士.
[26]余剑歌.詹姆斯·科纳的历时过程景观思想研究[D].哈尔滨工业大学,风景园林,2013,硕士.
[27]廖福成,土谷武士,江上正,于欣.最优预见伺服系统与最优预见FF补偿系统的统一处理[J].自动化学报,1998,05:66-72.
[28]吴汉花.胁迫条件下不结球白菜种子活力指标变化及检测方法的筛选[D].南京农业大学,蔬菜学,2012,硕士.
[29]王汉筠.中兴煤矿企业史研究(1880—1937)[D].苏州大学,中国近现代史,2003,硕士.
[30]肖迪,胡寿松.实域粗糙集理论及属性约简[J].自动化学报,2007,03:253-258.
[31]张丽.版权侵权责任制度研究[D].吉林大学,民商法学,2004,硕士.
[32]王小伟,赵伟,涂春鸣,罗安.双谐振注入式混合有源电力滤波器及控制方法[J].电力系统自动化,2010,02:59-63.
[33]钟宁.科学发展观指导下的社会稳定及其评估模型研究[D].东北师范大学,中共党史,2014,博士.
[34]刘小艳.身体和民族:叶芝诗歌中的身体叙述[D].西南大学,英语语言文学,2013,硕士.
[35]王焱佳.当代母职再思考[D].浙江工业大学,马克思主义中国化,2013,硕士.
[36]王树岩.北京市青少年业余篮球培训机构的发展对策研究[D].北京体育大学,体育人文社会学,2013,硕士.
[37]曾林西.基于性能预估的Hadoop参数自动调优系统[D].华中科技大学,计算机软件与理论,2013,硕士.
[38]崔海莉.基于数据挖掘的CRM数据分类技术的应用研究[J].滁州学院学报,2005,03:121-123.
[39]张立.剪切波速与振动三轴液化联合试验装置的研究及应用[D].天津大学,岩土工程,2004,硕士.
[40]刘斌.美国节水灌溉思路、措施和管理[J].水利规划设计.2000(01)
[41]崔晓燕.基于CUDA的指纹识别加速算法的研究[D].大连海事大学,电子科学与技术,2013,硕士.
[42]廖沙.都市阳光主题酒店项目技术经济分析[D].湖南大学,工商管理,2013,硕士.
[43]林晖.多信道WiMAX mesh网络的集中式调度算法研究[D].华侨大学,电子与通信工程(专业学位),2013,硕士.
[44]狄晓波.基于信任的建筑项目实施阶段沟通成效研究[D].华东理工大学,管理科学与工程,2013,硕士.
[45]詹务本.语气词“呢”的对外汉语教学研究[D].渤海大学,汉语言文字学,2013,硕士.
[46]黄德超.β-环糊精碳酸乙酯的合成与工艺优化[D].天津大学,化学工程,2013,硕士.
[47]陈富汉.基于Hadoop的云平台在海量Web数据分析中的应用研究[D].西安科技大学,电子与通信工程,2014,硕士.
[48]李晓丹.《认知语法精要》英汉节译报告[D].内蒙古大学,翻译,2014,硕士.
[49]贾振国.基于DSP的嵌入式网络视频服务的管理与控制技术[D].西安电子科技大学,电路与系统,2011,硕士.
[50]屈薇薇,陈宗海.基于灰朦胧集动态演化的线段特征提取[J].控制与决策,2015,05:848-852.

相关推荐
更多